Definition Was ist Tableflow?

Von Dipl.-Ing. (FH) Stefan Luber 3 min Lesedauer

Anbieter zum Thema

Tableflow ist ein Feature der Confluent-Cloud. Es ermöglicht die einfache und schnelle Konvertierung von Streaming-Daten zu Apache-Iceberg-Tabellen. Operative und analytische Daten lassen sich in Verbindung bringen, um Data Warehouses, Data Lakes oder Analyse-Engines mit Echtzeitdaten zu versorgen.

(Bild:  © aga7ta - stock.adobe.com)
(Bild: © aga7ta - stock.adobe.com)

Tableflow ist der Name eines von Confluent im März 2024 auf dem Kafka Summit in London vorgestellten neuen Features. Mithilfe der Funktion lassen sich Streaming-Daten aus Apache Kafka in Apache-Iceberg-Tabellen konvertieren. So können Echtzeit-Streaming-Daten ohne großen Aufwand in Data Warehouses, Data Lakes oder Analyse-Engines eingespeist werden.

Das Tableflow-Feature macht operative Daten für analytische Anwendungen verfügbar. Bisher genutzte aufwendige, mühsame und fehleranfällige Konvertierungsprozesse werden überflüssig. Kafka Topics und zugehörige Schemata werden mit nur einem Klick in Iceberg-Tabellen konvertiert. Operative und analytische Welt rücken mit Tableflow einen Schritt näher zusammen. Tableflow ist kompatibel mit bestehenden Funktionen der Confluent-Data-Streaming-Plattform wie Stream-Governance-Funktionen und Stream-Processing mit Apache Flink. Aktuell befindet sich Tableflow im sogenannten Private Early Access. Das Feature soll bald für die Confluent-Kunden zur Verfügung stehen.

Confluent und seine Produkte

Confluent zählt zu den Pionieren im Bereich des Daten-Streamings. Das US-Technologieunternehmen mit seinem Hauptsitz im kalifornischen Mountain View wurde 2014 von Entwicklern von Apache Kafka gegründet. Ziel war es, die Open-Source-Streaming-Plattform Apache Kafka zu kommerzialisieren und Kafka als einen vollständig verwalteten Cloud-Service anzubieten. Ein zentrales Angebot von Confluent ist die Confluent Cloud. Sie vereint Apache Kafka und Apache Flink und ermöglicht es Unternehmen, auf einer cloudnativen Daten-Streaming-Plattform „Data in Motion“ aus verschiedenen Quellen für geschäftliche Anforderungen in Echtzeit zur integrieren und zu verarbeiten.

Hintergründe zur Entwicklung des Features Tableflow

In der Regel besteht in den Unternehmen eine Kluft zwischen der operativen Welt und der analytischen Welt. Die analytische Welt besteht aus Data Warehouses, Data Lakes und Analyse-Engines. Sie bilden die Basis für Abfragen und Analysen dort abgelegter Daten und unterstützen analytische Funktionen für geschäftliche Abläufe und Entscheidungsprozesse.

In der analytischen Welt werden die Daten hinter den Kulissen zusammengeführt und für die Verarbeitungs- und Analyseprozesse bereitgestellt. Die Daten für die analytische Welt stammen aus operativen Bereichen und werden über ETL-Prozesse aus unterschiedlichen Datenquellen in Data Warehouses, Data Lakes und Analyse-Engines überführt.

Apache Kafka hat sich im operativen Bereich als De-facto-Standard für kontinuierlich erzeugte Datenströme etabliert. Im analytischen Bereich setzen viele Unternehmen für das Management der Datensätze in den Tabellen der Analyseumgebungen auf Apache Iceberg als offenes Standardtabellenformat. Wie Kafka für das Data-Streaming hat sich auch Apache Iceberg als offener De-facto-Tabellenstandard für das Speichern großer Datensätze etabliert. Daten und ihre Formate und Schemata aus dem operativen Bereich in Apache Iceberg zu übertragen ist aufwendig, mühsam und fehleranfällig. Die Integration von operativen Echtzeitdaten in die Analysesysteme stellt daher eine echte Herausforderung dar.

Das Tableflow-Feature wurde entwickelt, um diese Herausforderung zu bewältigen. Tableflow verwandelt die Topics und Schemata von Streaming-Daten mit einem Klick in Iceberg-Tabellen und vereinfacht so das Einspeisen der operativen Daten in Data Warehouses und Data Lakes für Datenanalysen. Tableflow hat laut Confluent das Potenzial, die Kluft zwischen operativer und analytischer Welt zu verringern.

Vorteile durch den Einsatz von Tableflow

Der Einsatz der neu in der Confluent Cloud bereitgestellten Funktion Tableflow bietet zahlreiche Vorteile. Zu diesen Vorteilen zählen:

  • Kafka-Topics und -Schemata lassen sich mit einem Klick in Apache-Iceberg-Tabellen umwandeln
  • Iceberg-Tabellen lassen sich kontinuierlich mit Streaming-Daten aktuell halten
  • Iceberg-Tabellen können aus den unterschiedlichsten Quellsystemen mit Echtzeitdaten versorgt werden
  • beliebige Data Warehouses, Data Lakes oder Analyse-Engines lassen sich für die Echtzeit- oder Batch-Datenverarbeitung versorgen
  • Tableflow unterstützt bestehende Funktionen der Confluent-Data-Streaming-Plattform wie Stream-Governance-Funktionen und Stream-Processing mit Apache Flink
  • die Qualität der aus den operativen Systemen stammenden Daten in den Data Lakes und Data Warehouses steigt
  • es können qualitativ hochwertige Datenprodukte bereitgestellt werden
  • die Kluft zwischen operativer und analytischer Welt wird verringert

(ID:50085037)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung